package com.pancm.test.wordTest;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.parser.Parser;

public class HtmlToPlainTextWithFormatting {
    public static String htmlToPlainText(String html) {
        Document doc = Jsoup.parse(html);
        // 转换为纯文本，可以设置 option 来保留结构
        // 这里用 text() 方法会去除所有标签，但不会保留换行
        String text = doc.text();

        // 也可以考虑在解析后手动处理结构，或者用 Jsoup 提供的方法获取所有文本节点
        // 更复杂的结构可以按元素逐个拼接，添加换行字符

        // 简单示意：用 text()，换行不会自动保留
        return text;
    }

    public static void main(String[] args) {
        String html = "<h1>&nbsp; &nbsp;这是一封来自新COP系统发送的邮件，请不要回复！ </h1> " +
                      "<ul> " +
                      "<li>以下待办事项请前往新COP系统(http://ncop-dev.bnq.com.cn/)，【工作台】-【我的任务】处理</li> " +
                      "<li>事件编号：&nbsp; 202007281155498785</li> " +
                      "<li>流程类型：&nbsp; 赋能自营协议创建</li> " +
                      "<li>创建时间：&nbsp; 2020-07-28 11:55:50</li> " +
                      "<li>处理时间：&nbsp; 2020-07-28 11:55:51</li> " +
                      "<li>发起人：&nbsp;&nbsp; Chao Liu 刘超</li> " +
                      "<li>部门：&nbsp;&nbsp;&nbsp; 51装饰建材/JOINERY</li> " +
                      "</ul>";

        String formattedText = htmlToPlainText(html);
        System.out.println(formattedText);
    }
}